【レポート】【初級】AWSでのデータ収集、分析、そして機械学習 #AWSSummit
こんにちは、Mr.Moです。
2019年 6月 12日(水) 〜 14日(金) 幕張メッセにてAWSに関する情報交換やコラボレーション、学習を行うことができる日本最大級のカンファレンス AWS Summit Tokyo 2019が開催されています。
本記事では、AWSのサービスを活用した機械学習におけるデータにまつわる知識を学べるセッション『【初級】AWSでのデータ収集、分析、そして機械学習』についてレポートしたいと思います。
セッション概要
機械学習を含めたデータ活用の需要は日々高まっており、今まで以上にデータをビジネスに活かすことが求められてきています。そのためには、まずデータを集めて、分析や可視化をする環境を整えて、そして機械学習の活用へと展開していく、といった大きな流れがあります。本セッションでは、データにまつわる一連の流れについて、具体的なAWSのサービス活用を交えて解説し、データや機械学習をビジネスに活かすためのロードマップを描いていきます。
スピーカー
アマゾン ウェブ サービス ジャパン株式会社
技術統括本部
ソリューションアーキテクト
山﨑 翔太
セッションレポート
データに基づいた意思決定に必要なこと
データ活用の流れとデータレイク
データ活用の流れと目的とは、データに基づいて意思決定をするために、過去を蓄積することで、現在を理解し、未来を予測する。
データに基づいた意思決定に必要なことは下記。データ活用とはこういった仕組みを整えて活用すること。
- 十分な質と量のデータ
- データ分析や機械学習を行う仕組み
- 評価指標とそれを計測する仕組み
ビジネス課題からスタートすることと、下記のようにループを回して評価することを継続的にやっていくことが重要。
最も時間がかかるところはどこか?
データの前処理も時間はかかるが、最も時間がかかるのは過去のデータを蓄積するところ。 ビジネス課題を考えながらも、できるだけ早くデータを集め始めた方が良い。 もう1つデータの蓄積が重要な点は、やりたいことは後から必ず変わるし、増えるということ。それに備えてデータは汎用的に集めておくことも考える。
データレイクをデータ活用の基盤とする
データレイクとはデータを溜める溜池のようなイメージ。様々なデータを一箇所に集めてから様々な活用をできるようにする。
AWSではAmazon S3を使ってデータレイクを構築するのがおすすめ。AWSの他サービスとの連携もしやすい。
何からやるべきか?
まずは、データをS3などに集めてBIなどでデータを可視化するというフローを作ってみる。 多くの場合、データを見えるようにするというのが最初のステップで、そこから意思決定と評価、ビジネス課題へとサイクルを回していく。
最初のデータ活用フローの構築
データ活用フロー設計のポイントは下記
データ活用フロー設計の順序
ビジネス課題からスタートとという前提があるので、いちばん右側から①が始まっている。
誰がどのようにデータを利用するか?を考える。
- Amazon QuickSight + Athenaで大規模対応
S3とQuickSightの間にAthenaを挟むことで全てサーバーレスで大規模データに対応できる。
目指すデータ活用から必要なデータ収集を考える
- データ変換(ETL)が必要なケース
- シンプルなデータ活用フローの例
機械学習の活用
機械学習においても常にビジネス課題を意識する。そしてビジネス課題を解決するのに機械学習が活用できそうかを判断。ポイントとなるのは注力する領域を決めること。 どこまでを自社でやれば良いのか、まずはAWSに用意されているサービスを探してみる。
- QuickSight ML Insights
- Amazon Rekognition
- Amazon Personalize
AWSには収集・分析・機械学習系のサービスが既にたくさんあります、解きたい問題とスキルに合わせて適切なツールを選択していくのが重要そうです。
まとめ
様々なケース・スキルに対応できるようAWSには様々なデータ収集・分析・機械学習系のサービスが用意されています。どのサービスを選択するにしてもデータは常に重要であることが分かりました。ビジネスの現場においてはそのデータはビジネス課題を意識したものでなければいけないんですね。